10. 数据集问题

我们使用 Pandas 来分析此数据!在 Jupyter notebook 中运行这些代码单元。你可以根据这些信息提出哪些有效的问题?(Jupyter notebook 下有关于数据集中的列的更多信息。)

Workspace

This section contains either a workspace (it can be a Jupyter Notebook workspace or an online code editor work space, etc.) and it cannot be automatically downloaded to be generated here. Please access the classroom with your account and manually download the workspace to your local machine. Note that for some courses, Udacity upload the workspace files onto https://github.com/udacity , so you may be able to download them there.

Workspace Information:

  • Default file path:
  • Workspace type: jupyter
  • Opened files (when workspace is loaded): n/a

来自威斯康星大学 UCI 机器学习实验室的乳癌(诊断)数据集

属性信息:

  1. 身份识别号
  2. 诊断(M =恶性,B =良性)
  3. 30 个特征

对每个细胞核计算了以下十个特征。我们对于每一个特征各自创建了一个列,用于得出平均值、标准误差和最大值。 (来源)

特征 Attributes 描述
半径 radius 从中心到边界点的距离的平均值
纹理 texture 灰度值的标准偏差
周长 perimeter
面积 area
平滑度 smoothness 半径长度的局部变
紧凑度 compactness 周长 2 / 面积 - 1.0
凹度 concavity 轮廓凹部的严重性
凹点 concave points 轮廓的凹部数
对称 symmetry
分形维数 fractal dimension "近似海岸线" - 1

QUESTION:

你会提什么问题?

ANSWER:

你会如何回答这些问题?你会使用此数据集的哪些部分来解决每个问题?